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摘 要 : 


[ 目的 /意义 ] 预测 用 户 是 否 转发 .评论 通缉 微 博 ,研究 及 评估 影响 通缉 微 博 传播 的 重要 特征 ,有 助 于 公安 微 博 提升 
其 运营 绩效 ,增强 警 民 之 间 的 沟通 和 合作 。[ 方 法/ 过程] 针对 通 毋 微 博 的 特点 ,在 抽取 通缉 微 博 的 用 户 特征 时间 
特征 、 微 博文 本 结构 特征 的 基础 上 ,提取 通缉 微 博 中 的 案件 特征 ,包含 案件 地 点 关键 字 、 时 间 关 键 字 通缉 令 等 级 、 
有 无 悬赏 等 ,利用 xgboost 算法 计算 不 同 特征 在 转发 .评论 预测 中 的 重要 性 ,并 结合 传播 网 络 特 征 和 节点 属性 ,构建 
基于 特征 属性 异 质 信息 网 络 误 入 的 公安 徽 博 传播 预 测 模型 ,并 对 模型 进行 训练 和 评估 。|[ 结果 /结论 | 预测 模型 在 


转发 .评论 数据 集 上 的 AUC 值 分 别 达到 0.737 和 0.799。 由 于 该 模型 融合 了 网 络 结构 特征 和 不 同 节 点 属性 ,更 贴 
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近 现实 的 异 质 信息 网 络 , 相 比 传统 的 链接 预测 模型 精确 度 更 高 。 另 外 ,特征 重要 性 实验 结果 表明 ,所 提出 的 案件 
关键 字 特 征 在 影响 微 博 转发 评论 预测 的 所 有 特征 中 重要 性 最 高 。 
图 表示 学 习 ” 异 质 信息 网 络 
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中 随 着 大 数据 时 代 的 到 来 ,信息 传播 渠道 日 益 多 元 
估 浙 浪 微 博 微 信 等 社交 媒体 平台 已 成 为 国内 重要 的 
政 夺 媒 体 新 平台 。 根 据 中 国 互联 网 络 信息 中 心 CCNN- 
! 信 发布 的 (第 4 次 中 国 互联 网 络 发 展 状 况 统计 报 
PER E 2019 年 6 月 ,我 国 在 线 政务 服务 用 户 规 
GSH 5.09 亿 , 占 网 民 整体 的 59. 6% ,我 国 已 有 297 
个 凶 级 行政 区 政府 开通 了 “两 微 一 端 "等 新 媒体 传播 
渠道 ,总体 覆盖 率 达 88.9% ~ 2019 年 6 月 24 日 ,一 段 
女子 在 街头 遭 男子 暴打 的 视频 在 网 络 上 引发 热 传 , 随 
后 各 地 警方 纷纷 介入 调查 ,由 于 无 法 找到 夜间 视频 的 
来 源 ,中 国 警方 在 线 在 微 博 上 向 大 众 征集 相关 线索 ,25 
日 陆续 有 网 友 向 警方 提供 线索 ,晚上 22 时 警方 将 犯罪 
嫌疑 人 抓获 。 这 充分 体现 了 网 络 社区 中 群众 性 参与 行 
为 获取 信息 的 强大 功能 ,这 种 网 民 互助 合作 的 形式 为 
警方 收集 侦察 线索 、 查 破案 件 提供 了 新 思路 。 如 何在 
虚拟 网 络 社区 开展 群众 工作 ,发 挥 广大 群众 的 作用 和 帮 


助 公安 机 关 惩 恶 扬 善 ,共同 打击 犯罪 ,是 我 国 公安 侦 查 
工作 需要 考虑 的 问题 。 

网 络 空间 的 信息 传播 从 用 户 视角 来 看 是 个 体 之 间 
多 样 化 的 交互 扩散 过 程 ,在 网 络 与 情 信息 传播 的 研究 
中 ,学 者 多 考虑 用 户 之 间 的 转发 关系 … ,对 于 评论 则 多 
从 文本 分 析 、 情 感 分 析 等 视角 进行 研究 ,但 用 户 之 间 的 
交互 还 涉及 到 关注 .评论 等 ,仅仅 考虑 转发 关系 并 不 能 
准确 捕捉 用 户 在 与 情事 件 传 播 过 程 中 的 交互 网 络 。 本 
文 以 通缉 微 博 为 研究 对 象 , 采 用 xgboost 算法 探究 微 博 
内 容 特 征 \ 微 博文 本 结构 特征 等 不 同 特征 在 微 博 转 发 、 
评论 预测 问题 上 的 表现 ;以 用 户 和 微 博 为 节点 ,根据 用 
户 和 微 博 、 用 户 和 用 户 之 间 的 关系 构建 异 质 信 息 网 络 ， 
并 结合 传播 网 络 结构 和 节点 属性 特征 ,构建 基于 特定 
属性 的 异 质 信息 网 络 舱 入 模型 来 对 公安 微 博 的 转发 、 
评论 .关注 等 传播 活动 进行 链接 预测 ,从 而 提高 公安 微 
博 传 播 预测 的 准确 率 。 研 究 用 户 的 各 种 信息 传播 行为 
有 助 于 相关 部 门 理解 信息 传播 机 制 ,对 于 政府 部 门 进 
行 与 情 监 控 \ 微 博 个 性 化 推荐 等 具有 重要 意义 ;人 研究 旨 
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在 揭示 公安 微 博信 息 传播 的 影响 因素 和 作用 机 制 以 及 
公众 的 转发 .评论 行为 模式 ,为 公安 微 博 的 运营 和 建设 
提供 建议 ,有 利于 政府 部 门 提高 公安 微 博 的 传播 影响 
力 , 增 强 警 民 联系 沟通 与 合作 互动 。 


2 相关 研究 


2.1 ”特定 领域 的 微 博 传播 模式 研究 

目前 ,学 者 们 多 采用 内 容 分 析 法 ” ,社交 网 络 分 析 
法 ”神经 网 络 ”等 方法 对 政务 .灾害 、 健 康 等 特定 领 
域 的 微 博 传播 规律 进行 探讨 。 在 宏观 视角 下 ,基于 转 
发 层级 .转发 次 数 等 可 将 政务 微 博信 息 传播 模式 划分 
为 两 级 传播 模式 、 普 通 多 级 传播 模式 卫星 传播 模式 
SE) ;在 微观 个 体 视角 下 ,学 者 们 对 微 博 用 户 交 互 模式 
的 研究 较 多 ,不 同 主题 下 灾害 信息 传播 网 络 的 用 户 交 
TRAA -EHAR 
LO 通缉 是 公安 机 关 对 于 应 当 逮 捕 的 在 逃犯 罪 嫌疑 
告 人 或 罪犯 进行 通令 缉捕 归案 的 一 项 侦查 措施 ， 
家 以 发 布 通缉 令 的 方式 进行 。 近 年 来 ,公安 徽 博 为 
公 窜 机 关 发 布 信息 提供 了 新 的 平台 ,这 使 得 网 络 通缉 
领 双 传播 范围 更 广泛 传播 速度 更 快 ,从 而 弥补 了 传统 
咀 绢 令 的 地 域 限制 ,也 能 更 快捷 地 从 群众 中 获取 通缉 
嫌 品 犯 的 有 关 线索 。 通 过 对 相关 文献 进行 梳理 发 现 ， 
感 讽 关于 微 博 传播 规律 的 研究 成 果 较为 丰富 ,但 是 以 
通 弓 信 息 作为 对 象 , 探 讨 公安 徽 博信 息 传播 过 程 中 不 
同 持 户主 体 微 博 传播 模式 特征 和 传播 用 户 属性 的 文献 
较 内 ,已 有 的 研究 多 数 从 公安 徽 博 的 运营 管理 视角 进 
行 归纳 总 结 式 的 描述 性 分 析 ” ,而 缺乏 基于 微 博 用 户 
行 胃 等 客观 数据 的 实证 研究 。 
2.2 微 博 传播 预测 研究 

微 博 传播 预测 研究 一 般 可 从 微 博 和 用 户 的 视角 进 
行 : 微 博信 息 的 流行 度 预 测 ,包括 微 博 转发 规模 、 束 
BE ,效率 等 预测 ,其 分 析 方法 一 般 是 基于 传染 病 模型 的 
数学 建 模 方法 以 及 基于 机 器 学 习 的 分 类 及 回归 模型 方 
法 中 。 徐 月 梅 等 "基于 用 户 特征 .时 间 特征 及 内 容 特 
征 , 采 用 卷 积 神经 网 络 和 梯度 提升 决策 树 算法 对 政务 微 
博 的 转发 规模 进行 预测 ,并 且 找 到 影响 该 规模 的 重要 特 
征 ;@@ 微 博 用 户 的 传播 行为 预测 ,用 户 通过 不 同 的 方式 
参与 公共 生活 ,如 发 布 对 社会 问题 的 意见 .评论 或 者 转 
发 他 人 的 内 容 等 。 其 中 ,用 户 的 转发 行为 是 微 博信 息 
扩散 的 最 重要 方式 "" 。 学 者 多 以 用 户 特征 和 微 博文 
本 的 主题 结构 特征 为 基础 ,运用 SVM 逻辑 回归 模型 等 
机 器 学 习 算法 实现 微 博 用 户 转发 预测 ,J Zhu 等 
探讨 了 文本 内 容 .影响 力 和 时 间 对 转发 的 影响 ,并 利用 


逻辑 回归 分 类 器 进行 预测 ,发 现 加 入 时 间 因 素 更 有 利于 
理解 转发 机 制 ;近年 来 学 者 多 从 用 户 社会 网 络 关 系 出 
发 ,结合 用 户 行为 日 志 数 据 ,将 复杂 网 络 方 法 和 内 容 分 
析 结 合 进行 用 户 转 发 行为 预测 ,B，Liang 等 ” 基于 影响 
微 博 转发 的 基本 因素 ,利用 单 类 协同 过 滤 方法 测量 用 户 
高 好 和 影响 力 来 对 用 户 的 转发 行为 进行 预测 。 
学 者 们 主要 从 微 博信 息 传播 影响 因素 和 用 户 行为 

影响 因素 进行 指标 上 的 探索 ,多 关注 微 博信 息 传播 过 
程 中 的 用 户 转 发 行为 ,对 微 博 评 论 则 多 从 主题 抽取 和 
情感 分 析 等 视角 进行 研究 。 不 同 影响 因素 会 导致 用 户 
参与 行为 的 不 同 “ ,但 目前 与 之 相关 研究 较 少 ,本 文 
拟 综合 考虑 信息 传播 过 程 中 用 户 的 转发 .评论 行为 , 探 
讨 哪些 影响 因素 会 对 用 户 不 同 参与 行为 造成 影响 。 
2.3 ”链接 预测 

传统 的 链接 预测 方法 主要 分 为 基于 节点 属性 相似 
性 、 基 于 网 络 结构 相似 性 、 基 于 节点 相似 性 这 3 类 , 代 
表 算法 有 Jaccard Coefficient ( Jaccard)'" | 、Admic/Adar 
(AA) 等 ,大 多 基于 节点 类 型 和 链接 类 型 唯一 的 同 
质 信 息 网 络 ,而 实际 世界 的 信息 网 络 中 存在 不 同类 型 
的 节点 ,并 且 市 点 之 间 也 存在 不 同类 型 的 关系 , 即 异 质 
言 息 网 络 。 同 时 ,大 规模 稀 玖 的 信息 网 络 对 链接 预测 
中 社会 网 络 数据 计算 提出 了 挑战 ,近年 来 ,许多 学 者 提 
出 的 网 络 表 示 学 习 方法 可 以 将 信息 网 络 中 的 节点 表示 
成 低 维 .稠密 的 向 量 形式 ,从 而 保留 丰富 的 网 络 信息 ， 
在 向 量 空间 中 具有 表示 及 推理 的 能 
网 络 表示 学 习 方 法 主要 分 为 3 X: OFEA 
式 分解 的 图 舱 入 。 用 和 矩阵 表示 节点 间 的 关系 ,对 矩阵 
(如 邻接 矩阵 . 拉 普 拉 斯 矩阵 .节点 属性 矩阵 等 ) 进行 
分 解 得 到 节点 的 家 入 向 量 ,可 以 解决 矩阵 稀 玖 化 问题 ， 
传统 的 算法 有 Laplacian Eigenmap'” 
tion ”等 , 近 几 年 来 还 有 多 采用 高 阶 数据 邻近 和 矩阵 以 
保留 图 结构 的 HOPE" 、GraRep ”等 算法 。 加 基于 随 
机 游 走 的 方法 。 随 着 Word2vec 模型 的 提出 ,针对 图 结 
构 数 据 展 开 了 基于 随机 游 走 的 方法 ,通过 生成 节点 序 
列 来 学 习 节 点 表示 形式 ,再 对 生成 的 节点 序列 进行 藤 
入 ,最 早 的 基于 随机 游 走 的 表示 方法 是 B. Perozzi 
等 .3 引 提出 的 DeepWalk 算法 ,随后 Node2vec™! jE 
有 了 灵活 的 偏差 随机 游 走 策略 ,同时 考虑 了 广度 优先 搜 
索 (BFS) 和 深度 优先 搜索 (DFS) 。Struc2vec ”算法 则 是 
从 空间 结构 相似 性 的 角度 来 对 节点 相似 度 进行 判断 。 
@ 基 于 神经 网 络 的 图 符 入 。 这 类 算法 多 将 神经 网 络 和 
图 结构 数据 结合 起 来 ,主要 有 LINE! .GCN ”等 算法 。 

综 上 所 述 , 微 博 传播 预测 研究 还 存在 以 下 不 足 : 


Graph Factoriza- 
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中 没有 区 分 用 户 在 微 博 传 播 中 的 不 同 参与 行为 ;@ 目 前 
的 传播 预测 分 析 方 法 多 适用 于 同 质 信 息 网 络 ;(3) 在 针对 


关系 作为 元 路 径 ,构建 微 博 异 质 信息 网 络 , 如 下 :中 基 
于 微 博 转 发 网 络 的 元 路 径 。 当 某 条 微 博 被 两 个 不 同 的 


公安 领域 的 微 博 传播 预测 中 ,尚未 考虑 事件 的 关键 字 特 
征 。 鉴 于 GATNE 模型 ” 可 用 于 处 理 异 质 信 息 网 络 , 且 
适用 于 大 规模 数据 建 模 ,同时 能 包含 丰富 的 节点 属性 和 
网 络 结构 特征 ,与 社交 网 络 中 存在 的 多 类 节点 以 及 节点 
间 存 在 多 类 关系 较为 相符 。 因 此 ,本 文 针对 这 些 不 足 提 
出 基于 特定 属性 异 质 信息 网 络 戏 和 模型 ,从 而 对 公安 微 
博 的 转发 .评论 ,关注 等 传播 活动 进行 链接 预测 ,根据 用 
户 和 微 博 、 用 户 和 用 户 之 间 的 关系 构建 异 质 信息 网 络 ， 
提取 的 节点 属性 特征 包含 用 户 特征 \ 文 本 结构 特征 、 事 
件 特 征 、 案 件 关键 字 特 征 ,最 后 结合 传播 网 络 结构 和 节 
点 属性 特征 ,引入 GATNE-I 模型 进行 微 博 传播 预测 。 


3 研究 方法 


用 户 转 发 时 ,元 路 径 表 示 为 U1-R1-I-R2-U2, 其 中 U1, 
U2 表示 不 同 的 用 户 转发 了 同一 条 微 博 I,R1 和 R2 分 
别 表示 用 户 U1 U2 转发 微 博 工 后 的 转发 微 博 。@ 基 于 
微 博 评论 网 络 的 元 路 径 。 当 某 条 微 博 被 两 个 不 同 的 用 
户 评 论 时 ,元 路 径 表示 为 U1-C1-LC2-U2 ,其 中 U1 、U2 
表示 不 同 的 用 户 评论 了 同一 条 微 博 1,Cl 和 C2 分 别 表 
示 用 户 Ul 、U2 评论 微 博 工 后 的 微 博 评论 。 凶 基于 用 户 
关注 网 络 的 元 路 径 。 当 某 个 用 户 被 两 个 不 同 用 户 同时 
关注 时 ,元 路 径 表 示 为 U1-U-U2 ,其 中 UL U2 表示 不 同 
的 用 户 关注 了 同一 个 用 户 U。 

3.1.2 特征 提取 

本 文 构建 的 通缉 微 博信 息 的 传播 预测 模型 主要 从 
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乡 5 网 络 中 的 节点 代表 用 户 或 微 博 条 目 , 节 点 属性 包含 
丙 特 征 、 微 博文 本 结构 特征 ,案件 特征 .时 间 特征 等 ， 
钼 对 公安 徽 博 这 一 特定 领域 的 微 博 传播 问题 ,引入 异 
JIRE PIK IRATE GATNE-I 构建 了 基于 特定 属性 
二 风 网 络 襄 入 的 短 博 传播 预测 模型 ,添加 了 用 户 , 生 
博时 间 特 征 作为 特定 属性 嵌入 到 CATNE-I 模型 中 。 
首 议 对 通 给 微 博 及 转发 .评论 用 户 数据 进行 预 处 理 , 提 
取 旦 用 户 特征 时 间 特 征 ,并 识别 出 通缉 微 博 中 的 案件 
地 加 ,时间 、 人 名 等 案件 关键 字 特征 。 利 用 xgboost 算 
法 加 实现 对 微 博 特征 和 用 户 特征 的 重要 性 进行 排序 。 
同时 ,构建 基于 转发 关系 、 评 论 关系 .关注 关系 的 异 质 
信 入 网 络 ,网络 中 节点 类 别 分 为 用 户 和 微 博 , 边 的 类 别 
为 用 户 与 微 博 之 间 的 转发 .评论 关系 及 用 户 与 用 户 之 
间 的 关注 关系 ,结合 节点 的 属性 特征 ,构建 基于 特定 属 
性 蜡 质 网 络 嵌 人 预测 模型 ,从 而 对 微 博 传播 进行 预测 。 
3.1 ， 微 博 特定 属性 异 质 网 络 的 构建 
3.1.1 微 博 异 质 信息 网 络 

设 一 个 有 向 网 络 图 G = (VBA) ,其 中 节点 类 型 
映射 函数 2:T 一 0 , 边 类 型 映射 函数 p:E—>R, th O 
和 中 分 别 代表 所 有 节点 类 型 和 边 类 型 的 集合 。 每 个 节 
点 weT 都 属于 一 个 特定 的 节点 类 型 ,4 = | x10, eV| 是 
所 有 节点 的 节点 特征 集合 ,其 中 是 节点 0, 的 关联 特 
(EE = Un E, 表示 E, ARMA WARD eR HIRI 
> 1 ,对 于 每 个 边 类 型 re 及, 我 们 将 网 络 分 割 为 6, = 
(VE, A) ,并 且 称 其 为 特定 属性 异 质 信息 网 络 。 

本 研究 将 微 博 异 质 信息 网 络 抽象 为 包含 两 种 节 
点 : 微 博 (1) 与 用 户 (U) ,以 用 户 转发 .评论 .关注 3 种 


用 户 特 征 \ 微 博 特 征 、 时 间 特 征 3 个 维度 探讨 影响 通缉 
微 博信 息 传播 的 因素 ,如 表 1 所 示 : 
表 1 通缉 微 博 特 征 及 特征 值 


— 


认证 类 型 无 认证 /个 人 认证 /机 构 认 证 
粉丝 数量 0 -999/100 0 - 999 9/10 000 - 99 999/100 
户 特 征 000 -999 999/ 
1 000 000 - 100077/1 000 万 以 上 
关注 数量 0 -299/300 — 599/600 - 899/900 -1 999/ 
2 000 -9 999/10 000 -20 000 
发 布 微 博 总数 ” 0 -999/1 000 -9 999/10000 - 99 999/10 万 
以 上 
所 在 行业 传统 媒体 / 自 媒 体 / 新 媒体 /政府 机 构 / 公 众 
人 物 / 个 人 团体 组 织 / 企 业 / 公 益 组 织 / 所 在 
行业 -其 他 
是 否 为 公安 系统 ”是 / 否 
性 别 男 / 女 
等 级 是 否 为 VIP 
所 在 地 区 北京 /上 海 /广东 /湖南 /浙江 /湖北 … 
微 博 特 征 文本 结构 是 否 有 URIL/ 哈 希 标 签 / 图 片 / 视 频 / 提 及 / 


if 
案件 关键 字 ”是 否 包 含 地 点 关键 字 


时 间 特 征 所 在 时 间 段 深夜 (00:01 -06: 00) ,清晨 (06: 01 -08:30) ,上 

午 (08:31 -12:00) ,中 午 (12:01 -14:00) ,下 午 
(14:01 -18:00) ,晚上 (18:01 -24:00) 

节假日 节假日 ; 非 节假日 
星期 周一 ;周二 ;周三 ; 周 四 ; 周 五 ; 周 六 ; 周 日 


首发 微 博 ; 非 首发 微 博 


首发 微 博 
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(1) 用 户 特征 。 本 文 将 用 户 特征 划分 为 用 户 的 基 
本 属性 和 用 户 行为 特征 。 用 户 的 基本 属性 包含 用 户 认 
证 类 型 .所 在 行业 .是否 为 公安 系统 用 户 性别、 等 级 、 
所 在 地 区 6 个 维度 ,其 中 用 户 认证 类 型 的 特征 值 包含 
机 构 认 证 用 户 . 个 人 认证 用 户 和 无 认证 用 户 ,机 构 认证 
用 户 本 身 具有 一 定 的 影响 力 和 权威 性 , 当 其 发 布 微 博 
时 更 容易 引起 大 众 的 关注 和 讨论 ;用 户 所 在 行业 分 为 
传统 媒体 、 自 媒体 、 新 媒体 .政府 机 构 、 公 众人 物 、. 个 人 
团体 组 织 ,企业 .公益 组 织 .所 在 行业 - 其 他 ,其 中 个 人 
团体 组 织 指 粉丝 团 .同城 会 .老乡 会 等 组 织 ,将 认证 信 
息 中 或 者 用 户 名 称 中 含有 “公安 "“ 警 察 "等 字样 的 用 
户 归 为 公安 系统 用 户 ;等 级 分 为 是 否 开通 了 微 博 会 员 ， 
所 在 地 区 通过 微 博 用 户 资料 中 的 地 理 信息 获取 ,最 终 
选择 的 特征 值 包括 中 国 34 个 省 级 行政 区 ,以 及 “海外 ” 
“其 季 " 共 36 个 特征 值 。 由 于 用 户 的 粉丝 数 和 关注 数 
可 能 会 影响 微 博 流行 度 ” ,本 文 也 选取 了 用 户 粉 丝 
户 关注 数 和 用 户 已 发 布 的 微 博 数 这 3 个 特征 作 
HP Ta AE 

ED 微 博 特 征 。 综 合 考虑 通缉 微 博 的 特殊 性 ,本 
6 陷 微 博 特 征 分 为 微 博文 本 结构 特征 和 案件 关键 字 ， 
奉 身 博文 本 结构 特征 中 ,URL. 哈 大 标签 与 微 博 转发 具 
ARPE ,而 且 用 户 在 发 布 微 博时 ,通常 会 增加 
轿 启 ,视频 来 传递 更 多 的 信息 ,观察 通缉 微 博 内 容 发 
现 缴 博 用 户 在 发 布 重 大 通缉 信息 时 ,通常 会 加 上 表情 
JRA AIEE, 比如 [ 话 简 ] [ 震惊] 等 ,因此 本 研究 
将 是 否 有 链接 . 哈 希 标签 .图片 视频 , 提 及 (@ ) .表情 
纳 大 微 博文 本 结构 特征 中 。 

-OK《 公 安 机 关 办 理 刑事 案件 程序 规定 ) 第 二 百 六 十 
六 条 明确 指出 :“ 通 缉 令 中 应 当 尽 可 能 写 明 被 通缉 人 的 
姓名 、 别 名、 曾 用 名 绰号. 性别、 年 龄 .民族 ,籍贯 .出生 
地 户籍 所 在 地 、 居 住地 、 职 业 、 身 份 证 号 码 .衣着 和 体 
SARE 口音、 行为 习惯 ,并 附 被 通缉 人 近期 照片 ,可 以 
附 指纹 及 其 他 物证 的 照片 ,除了 必须 保密 的 事项 以 外 ， 
还 应 当 写 明 发 案 的 时 间 , 地 点 和 简要 案情 ”。 现 在 一 般 
采用 照片 和 文字 合 一 的 方式 通报 犯罪 嫌疑 人 信息 。 因 
此 通常 公安 徽 博 发 布 的 通缉 令 所 包含 的 嫌疑 人 信息 量 
较 多 ,但 由 于 在 通缉 微 博 传播 过 程 中 ,其 他 用 户 并 不 需 
要 按照 这 一 规定 发 布 通缉 信息 ,因此 发 布 的 微 博 中 所 
包含 的 信息 量 较 少 ,如 缺少 包含 嫌疑 人 文字 信息 的 照 
片 等 ,而 当 一 条 微 博 包含 信息 量 较 多 时 ,往往 更 能 引起 
大 众 的 关注 和 讨论 。 因 此 在 微 博 内 容 特 性 中 ,本 研究 
添加 了 案件 案情 关键 字 特 征 ,包含 发 案 的 时 间 关 键 字 、 
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级 ` 有 无 悬赏 等 可 以 直接 通过 关键 字 筛选 进行 判断 ,而 
时 间 关 键 字 、 地 点 关键 字 和 行为 关键 字 等 可 以 通过 命 
名 实体 识别 进行 抽取 ,在 此 基础 上 ,本 研究 依据 《中 华 
人 民 共 和 国 刑 法 》 上 的 罪名 类 别 对 每 条 微 博 中 包含 通 
缉 案件 的 类 型 进行 标注 。 由 于 案件 进行 到 不 同 阶段 ， 
嫌疑 人 状态 可 能 从 刚 开 始 的 在 逃 到 随后 的 被 捕 , 因 此 
根据 通缉 微 博 所 展示 的 当前 嫌疑 人 状态 对 案件 进展 也 
进行 了 区 分 ,分 为 在 光 被 撒 、 自 首 等 。 
(3) 时 间 特 征 。 微 博 发 布 时 间 的 不 同 ,能 接收 到 
言 县 的 用 户 数量 也 不 同 ,因此 本 研究 在 考虑 微 博 发 布 
时 间 段 .星期 法 定 节 假日 的 基础 上 ,根据 微 博 用 户 作 
息 规律 将 微 博 发 布 所 在 时 间 段 划分 为 深夜 (00: 01 - 
6:00) 清晨 (6:01 -8:30)、 上 午 (8:31 - 12:00) ,中午 
(12:01 - 14:00) 下午 (14:01 - 18:00) 晚上 (18:01 - 
24:00)6 个 阶段 ”。 由 于 本 研究 选取 的 数据 时 间 跨 度 
较 大 ,并且 包 含 多 个 通缉 事件 ,通缉 令 一 经 公安 部 发 布 
可 能 被 其 他 用 户 转发 ,尤其 是 容易 引起 社会 念 慌 的 案 
件 ,嫌疑 人 在 逃 对 社会 仍 具 有 威胁 ,更 容易 被 传统 媒 
体 、 自 媒体 等 转发 报导 ,因此 本 研究 将 首发 微 博 定义 为 
在 数据 集中 同一 通缉 案 中 不 同 阶段 下 (如 被 捕 、 自 首 
等 ) 最 先 发 布 通缉 信息 的 微 博 。 
3.2 ”特征 重要 性 排序 
特征 重要 性 是 通过 对 数据 集中 的 每 个 属性 进行 计 
算 并 排序 而 得 出 ,其 原理 是 一 次 随机 为 数据 集 抽取 数 
据 的 一 个 特征 ,计算 其 性 能 指标 的 下 降 程度 ,变化 越 
大 , 则 代表 特征 就 越 重要 。 多 采用 随机 和 森林、 决策 树 、 
xgboost 等 集成 学 习 算 法 ,大 致 分 为 提升 法 和 套 袋 法 。 
xgboost 算法 是 在 gbdt 的 基础 上 对 提升 算法 进行 改进 ， 
对 数据 残 差 进行 拟 合 ,并 在 损失 函数 上 加 入 了 模型 复 
杂 度 的 正则 项 ,能 有 效 防止 过 拟 合 ,同时 并 行 和 分 布 式 
设计 使 得 算法 具有 非常 快 的 训练 速度 。xgboost 模型 把 
缺失 值 当 做 稀 玖 矩阵 来 对 待 , 本身 在 市 点 分 裂 时 并 不 
考虑 缺失 值 的 数值 。 缺 失 值 数据 会 被 分 到 左 子 树 和 右 
子 树 分 别 计算 损 失 ,选择 结果 较 优 的 子 树 。 如 果 训练 
中 没有 数据 缺失 ,预测 时 出 现 了 数据 缺失 ,那么 默认 被 
分 类 到 右 子 树 。 
本 研究 采用 xgboost 算法 进行 特征 重要 性 排序 , 采 
H python 中 sklearn 包 中 的 train_test_split( ) 函数 随机 
划分 训练 集 和 测试 集 ,在 此 将 链接 预测 问题 看 成 一 个 
二 分 类 问题 ,两 个 节点 之 间 相连 则 设置 标签 为 1 ,否则 
设置 为 0。xgboost 算法 通过 不 断 添加 CART 树 来 学 习 


y 


WARES 行为 关键 字 、 嫌 疑 人 描述 关键 字 .通缉 令 


个 新 函数 , 拟 合 上 次 预测 的 残 差 。xgboost 的 输入 是 
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两 个 节点 的 特征 向 量 的 组 合 ,比如 转发 预测 中 , 拟 输入 
转发 用 户 的 特征 值 和 微 博 的 特征 值 。 对 于 多 维特 征 向 
量 x_i, Il] xgboost 的 输出 如 公式 (1) 所 示 : 

= Dia h(a) her 式 (1) 
其 中 ,hk 是 CART 树 的 棵 数 ,FP 表示 所 有 可 能 的 
CART 树 ,f(x,) 表示 CART P k 的 分 类 结果 。xgboost 
模型 的 目标 函数 如 公式 (2) 所 示 : 

obj(0) = EIUS) + Dt OY) RO) 

其 中 ,目标 函数 的 第 一 项 ! 为 损失 函数 ,度量 预测 

值 与 目标 值 之 间 的 差 ,第 二 项 2 为 代表 正则 项 ,为 上 棵 
CART 树 的 复杂 度 之 和 ,包括 叶子 结 点 的 个 数 和 叶子 
结 点 的 分 数 。 
3.3 GATNE -I 模型 
gee Y. Cen 等 ”于 2019 年 提出 的 GATNE 模型 
(GRINE- 和 GATNE-T) 能 够 用 来 处 理 真实 世界 中 由 
大 规模 节点 和 多 种 类 型 的 边 组 成 的 网 络 ,而 且 网 络 中 
gj 全 个 节点 都 能 与 不 同 的 属性 相关 联 。 本 文 引 入 
GEENE-I 模型 来 解决 异 质 信息 网 络 中 的 不 同 节点 不 同 
边 的 链接 预测 问题 ,对 公安 徽 博 的 转发 ,评论 ,关注 等 


入 相对 于 整体 嵌入 的 重要 性 ,Mes 尼 “是 
的 变化 矩阵。 


个 可 训练 


v,, =b; +a, M" U, a,, (5) 

GATNE-T 模型 不 能 处 理 没 有 出 现 的 节点 ,而 在 实 

际 情况 中 的 网 络 数 据 很 多 是 不 全 面 的 ,而 引入 了 节点 

特征 的 GATNE-I 模 型 可 以 解决 这 一 问题 ,将 通用 向 入 

b, 定义 为 节点 v 的 属性 x 的 参数 方程 。 不 同 节点 v, 

的 属性 x, 可 能 具有 不 同 维度 。 原 先 在 GATNE-T 模型 

中 随机 初始 化 的 uw» 则 是 通过 节点 的 属性 函数 得 到 ， 

如 公式 (6) 所 示 , 其 中 g., 也 是 一 个 变换 函数 ,用 来 将 特 
征 变 换 到 节点 vw 在 边 类 型 + 的 边 租 入 。 

ui = (%i) 式 (6) 

同时 在 CATNE-I 模型 中 会 在 节点 v 在 边 类 型 + 上 

的 整体 姐 入 中 增加 一 个 额外 的 属性 项 ,节点 ov, 在 某 种 

边 类 型 > 下 的 向 量 表示 vw, 的 表达 如 公式 (7) 所 示 , 其 

HB, 是 系数 ,D, 是 节点 六 对 应 节点 类 型 zs 上 的 特征 转 

换 和 矩阵 。 
vi, =h.(x;,) +a, M” U, a, +B, D; x; 


4 实验 及 结果 分 析 


式 (7) 


传 吏 活动 进行 链接 预测 。 模 型 中 每 个 节点 在 每 个 边 类 


ED 点 属性 构成 ,分 别 对 应 描述 结构 信息 . 异 质 信息 和 
填 悍 信息 。 节 点 的 通用 舱 和 是 每 个 节点 在 每 种 边 类 型 
下 惕 享 的 ,而 每 个 节点 的 边 嵌 入 则 是 按照 不 同 的 边 类 
型 通 过 相 邻 节点 的 边 岩 入 计算 得 到 的 ,节点 w 在 边 类 
型 久 .下 第 大 层 的 边 嵌 入 计算 方式 如 公式 (3) 所 示 : 

三 ul =aggregator( (ut , Yv eN,,|) RG) 


-C5 其 中 i,j 表示 异 质 信息 网 络 中 的 节点 编号 , 表示 
边 类 型 ,聚合 函数 可 以 采用 平均 聚合 或 者 其 他 类 型 的 
池 化 聚合 。 在 模型 GATNE-T 中 ,每 个 节点 vw, 在 每 种 边 
类 型 + 下 初始 边 舱 入 wo" 是 随机 初始 化 的 。 将 第 大 层 
HIRA uO ENH uw, 并 将 节点 wb 的 所 有 边 嵌 和 人 连 
接 成 大 小 为 s* m 的 矩阵 U,, JEP s PAWLAK A HE 
度 ,m 表示 边 类 型 的 数量 。 

通过 自 注意 机 制 来 计算 U, 中 在 每 种 边 类 型 + 下 
向 量 之 间 线性 组 合 的 系数 o ,从 而 得 到 每 种 边 类 型 下 
的 向 量 表示 对 各 个 边 类 型 的 权重 ,如 公式 (4) 所 示 : 

a, = softmax (w” tanh( W, U,) i" x (4) 
HEP w, AW, 分 别 是 大 小 为 4d, Ald, *s(d 为 通用 
嵌入 的 维度 ) 下 边 类 型 + 的 可 训练 参数 ,了 表示 向 量 或 
矩阵 的 倒置 。 最 终 得 到 GATNE-T 模型 中 ,每 个 节点 o, 
在 边 类 型 + 下 的 向 量 表示 ,如 公式 (5) 所 示 。 其 中 5 是 
节点 w 的 通用 嵌入 ,a, 是 一 个 超 参数 ,用 来 表示 边 巾 


4.1 数据 集 

本 文采 用 的 数据 集 来 自 国 内 社交 媒体 平台 新 浪 微 
博 , 以 检索 词 为 “通缉 嫌疑 "采集 原创 微 博 及 其 评论 、 
转发 和 所 有 用 户 的 基本 信息 ,并 且 经 过 人 工 校 验 去 除 
与 通缉 微 博 无 关 的 微 博 , 共 采集 了 2016 年 1 月 1 日 - 
2019 年 9 月 15 日 的 14 905 条 原始 微 博 .86 146 条 转发 
微 博 、62 548 条 微 博 评论 。 选 取 发 布 原始 微 博 的 用 户 ， 
采集 其 关注 与 被 关注 用 户 信 息 , 由 于 数据 量 过 大 ,并 且 
关注 网 络 过 于 稀 玻 ,去 除 在 关注 网 络 中 只 出 现 过 一 次 
的 用 户 ,得 到 16 8059 条 关注 与 被 关注 信息 , 共 包含 了 
14 3370 个 微 博 用 户 。 在 微 博 异 质 信息 网 络 中 ,节点 代 
表 微 博 用 户 , 边 代表 用 户 之 间 的 转发 .评论 .关注 等 关 
Ro 采集 的 微 博 用 户 字 段 包 含 用 户 id HPR HEIN 
省 份 VIP 、 认 证 发文 数 .关注 数 和 粉丝 数 ; 微 博文 本 信 
息 字 段 包 含 微 博 id H id 、 发 布 时 间 ,登录 设备 \ 点 赞 
BFE BE .评论 数 .图 片 链接 和 微 博文 本 。 
4.2 通缉 信息 的 传播 模式 分 析 

以 通缉 微 博 转 发 网 络 为 例 ,本 文 对 信息 传播 中 不 
同 主体 发 布 的 微 博 中 用 户 属 性 进行 探讨 ,由 于 微 博 转 
发 网 络 结构 较 大 ,本 研究 选择 数据 集中 出 现 一 次 以 上 
的 节点 ,得 到 697 个 节点 .5 118 条 边 的 网 络 结构 数据 。 
其 中 ,共计 108 个 公安 系统 用 户 发 布 的 微 博 中 有 323 
个 公安 系统 用 户 参 与 转发 。 经 过 gephi 软件 可 视 化 发 
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现 ,同一 省 (直辖 市 ) 内, 不同 地 区 的 公安 用 户 通常 会 
转发 地 区 级 别 最 高 的 公安 用 户 发 布 的 微 博 ,转发 网 络 
中 的 普通 用 户 也 多 为 同一 省 (直辖 市 ) 内 的 微 博 用 户 。 
以 “平安 重庆 ”发 布 的 微 博 为 例 ,如 图 1 所 示 ,发 现 其 转 
发 用 户 多 为 "平安 南岸 “平安 黔江 ”等 重庆 直辖 市 下 
不 同 地 区 的 公安 用 户 ,普通 用 户 如 "优雅 的 猫 forever” 
“ 雾 都 老 猫 ”也 属于 重庆 地 区 。 这 说 明 通 缉 令 信息 的 
传播 范围 一 般 局 限 在 省 市 内 (直辖 市 ) ,不 同 省 市 ( 直 


辖 市 ) 之 间 公安 微 博 对 通缉 信息 的 传播 较 少 。 
平安 柄 [新 区 
优雅 的 独 forever 平江 
aT í 
Or S I 
平 5 而 央 
a 六 230 大 一 一 四 季 财 gk 是 666 
PARE ae geo UR AME AS 
二 qong SEL. 
N PAEKAN ER PEA 
LO 
O 图 1 “平安 重庆 ”的 转发 网 络 
© 
OW 人 民 日 报 ” 为 例 , 相 比 于 公安 系统 用 户 , 转 发 
网 络 中 普 通用 户 较 多 ,还 有 部 分 公安 系统 用 户 , 如 “ 武 


Hay > 洲 派出 所 ”“ 平 安吉 利 ”等 ,公安 系统 用 户 的 所 
在 地 区 较为 分 散 , 这 也 侧面 表明 新 闻 媒体 因 其 本 身 具 
各 2 定 的 影响 力 ,通缉 信息 的 传播 突破 了 以 公安 徽 博 
lease REE. 
nE 案件 关 键 字 提 了 

一 通缉 微 博文 本 中 包含 大 量 与 通缉 事件 相关 的 信 
四 
ET se CS 等 级 ) ,可 以 直 
接 蛙 微 博文 本 进行 关键 词 筛选 来 判断 。 由 于 现 有 的 通 


缉 令 多 以 照片 文字 二 合 一 的 方式 进行 传播 ,本 文 根 据 
疏 取 的 微 博 图 片 链接 下 载 图 片 ,再 利用 闪电 OCR 图 片 
文字 识别 软件 得 到 图 片 中 的 文本 信息 ,结合 微 博文 本 
内 容 , 采 用 python 中 的 hanlp 分 词 工具 对 原创 微 博 文 
本 进行 分 词 ,并 进行 词性 标注 ,识别 出 人 名 、 地 名 、 时 间 
等 信息 ,如 草 志 钢 /n、 广 东 /ns .23 日 上 等。 对 属性 中 案 
件 关键 词 字段 进行 补充 如 表 2 所 示 ,案情 类 别 是 依据 
《中 国人 民 共 和 国 刑法 》 中 的 罪名 及 定义 ,结合 案件 嫌 
疑 人 行为 关键 字 等 进行 划分 。 
4.4 微 博 特征 重要 性 排序 

为 了 判断 不 同 节点 的 网 络 关系 中 特征 值 对 链接 预 
测 的 影响 ,本 研究 采用 xgboost 算法 筛选 出 重要 特征 ， 
分 别 对 转发 预测 和 评论 预测 中 的 特征 重要 性 进行 排 
序 ,结果 见 图 2。 

实验 结果 显示 ,在 转发 预测 和 评论 预测 中 , 微 博 案 
件 关 键 字 特征 的 重要 性 均 明 显 高 于 其 他 特征 的 重要 
性 ,表明 含有 通缉 案件 相关 信息 的 微 博 更 容易 被 转发 
或 评论 ,公安 微 博 或 者 新 闻 媒 体 发 布 通缉 信息 时 ,对 案 
件 补 充 的 信息 越 多 , 越 容易 引发 用 户 参 与 信息 传播 ;用 
户 粉 丝 数 .节假日 的 重要 性 均 明 显 低 于 其 他 特征 的 重 
要 性 ,这 说 明 用 户 的 粉丝 数 和 是 否 为 节假日 对 预测 用 
户 转 发 或 评论 通缉 微 博 的 影响 较 小 ;用 户 所 在 地 、 星 
期 用户 所 在 行业 微 博 发 布 时 间 段 的 特征 重要 性 都 较 
高 (大 于 0.05)。 但 用 户 认证 类 型 的 重要 性 在 转发 预 
测 中 相对 于 在 评论 预测 中 要 低 ,首发 微 博 的 重要 性 在 
转发 预测 中 相对 于 在 评论 预测 中 则 高 许多 ,这 也 反映 
出 在 同一 个 通缉 事件 中 发 布 微 博 的 时 间 越 早 就 越 容 易 
被 用 户 转发 。 


表 2 案件 关键 词 字段 


案件 关键 字 字段 
地 点 关键 字 广西 /ns、 环 江 县 /ns 大 谭 镇 /ns、 赵 屯 村 /ns ,北京 站 /ns 等 
时 间 关 键 字 2015 年 /t、10 A/t.23 日 后 日 前 人 近日 人 凌晨 /At A & 
行为 关键 字 杀害 人 .抢劫 入 、 涉 黑人 vy 殴打 Av 放贷/v、 奸 杀 /v 等 
嫌疑 人 描述 关键 字 IKa En En AKEn 体态/n、 牛 仔裤/n 等 
通缉 令 等 级 A 级 通缉 令 .B 级 通缉 令 .国际 通缉 令 
有 无 悬赏 悬赏 /人 v 奖励/ 奖赏 /vn 、 奖 征 /n 等 
案情 类 别 组 织 强迫. 引诱、 容留 .介绍 卖淫 罪 ;走私 罪 ;走私 贩卖. 运输、 制造 毒品 罪 ; 制 作 \ 贩 卖 、 传 播 淫 秽 物 品 罪 ;危害 税收 征管 罪 ; 危 害 公 共 
卫生 罪 ; 危 害 公共 安全 罪 ;贪污 贿赂 罪 ; 生 产 、 销 售 伪劣 商品 罪 ;扰乱 市 场 秩 序 罪 ;扰乱 公共 秩序 徘 ;侵犯 公民 人 身 权 利 ` 民 主权 利 徘 
(故意 杀人 罪 ,故意 伤害 罪 .强奸 罪 等 ) ;侵犯 财产 罪 ( 抢 动 罪 .盗窃 罪 等 ) ;破坏 金融 管理 秩序 罪 ;破坏 环境 资源 保护 罪 ; 金 融 诈 骗 罪 ; 妨 
害 文物 管理 罪 ;妨害 司法 罪 ; 妨 害 国 ( 边 ) 境 管理 罪 ; 妨 害 公 务 罪 ; 妨 害 对 公司 ,企业 的 管理 秩序 罪 ; 渎 职 罪 
案情 进展 投案 自首 /nz 在逃/nz、 抓 捕 归 案 /n、 被 捕 /v 等 


从 微 博 的 角度 来 看 ,以 微 博 案件 关键 字 和 时 间 特 
征 文本 结构 特征 中 部 分 特征 进行 具体 分 析 , 如 图 3 所 
示 。 在 案件 关键 字 特 征 重要 性 排序 中 ,A 级 通缉 令 


(0. 033 ) 破坏 金融 管理 秩序 罪 (0. 029) ,案件 类 别 - 
其 他 (0.055 ) 对 微 博 评 论 预测 的 影响 较 大 ,而 地 点 关键 
词 (0.027) 嫌疑 人 描述 关键 词 (0.022)、 侵 犯 财 产 罪 
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2 特征 重要 性 排序 


(0.028) .被 捕 (0. 028 ) 等 对 微 博 转 发 预测 的 影响 较 
大 全 在 微 博时 间 特 征 中 , 周 日 (0. 138) 在 转发 预测 中 的 
ADE Ess EVAG (0. 017) 预测 中 的 重要 性 也 较 高 
放 吏 微 博 在 转发 和 评论 预测 中 的 重要 性 都 较 高 (大 于 
0 02) ,晚上 ,周二 周 六 在 转发 预测 中 的 重要 性 较 低 于 
在 理论 预测 中 。 在 微 博文 本 结构 特征 中 ,视频 和 哈 希 
标 黎 的 特征 重要 性 均 较 高 ,这 给 公安 系统 用 户 发 布 通 
AAS ete ea 发布 的 微 博 尽 可 能 应 该 包含 案件 
A EI 
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相关 信息 ,如 嫌疑 人 的 特征 、 案 件 进展 等 ,发 布 微 博 的 
时 间 可 以 选 在 周 六 、 周 日 ,发布 的 微 博 通过 添加 与 案件 
相关 的 视频 、 图 片 .话题 标签 等 来 传递 更 丰富 的 信息 ， 
从 而 引发 更 多 用 户 的 关注 ,如 公安 部 在 2019 年 7 月 采 
取 在 全 国 范围 通缉 50 名 重大 在 逃 人 员 的 行动 中 ,在 逃 
人 员 来 自 全 国 各 地 , 当 各 地 公安 发 布 微 博时 ,会 添加 话 
题 # 公 安 部 通缉 50 名 重大 在 逃 人 员 #, 虽然 本 地 公安 徽 
博 自身 影响 力 较 低 , 但 也 能 吸引 较 多 的 转发 。 


0.055 


0.05 0.06 0.07 0.08 0.09 0.1 


评论 


图 3 微 博 -案件 关键 字 特 征 重要 性 


从 参与 转发 或 者 评论 的 用 户 角度 来 看 ,用 户 所 在 
地 区 在 转发 (0.180) 和 评论 (1.87 ) 预测 中 的 重要 性 都 
最 高 ,其 中 ,天 津 .北京 .河北 等 华北 地 区 在 转发 和 评论 
预测 中 的 重要 性 均 较 高 ,而 广西 海南、 香港 和 澳门 等 
华南 地 区 在 转发 和 评论 预测 中 的 重要 性 均 较 低 。 机 构 
认证 政府 机 构 、 公 安 系 统 特征 对 转发 .评论 预测 的 影 


响 较 大 ,也 侧面 反映 出 通缉 微 博 传播 的 用 户 圈 仍然 具 
有 一 定 的 局 限 性 ,政务 微 博 之 间 的 合作 传播 较为 明显 。 
关注 数 为 300 - 599 和 关注 数 为 2 000 -9 999 的 用 户 
特征 在 转发 预测 中 的 重要 性 明显 高 于 在 评论 预测 中 的 
重要 性 ,但 是 关注 数 为 900 -1 999 的 用 户 特征 对 转发 
预测 的 影响 相 比 对 评论 预测 的 影响 要 低 。 这 有 助 于 新 
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浪 等 社交 媒体 平台 进行 用 户 推荐 ,针对 容易 转发 .评论 
通缉 微 博 的 用 户 群 体 推送 相关 微 博 , 既 能 增加 公安 用 
户 等 政务 微 博 的 影响 力 ,促使 通缉 信息 能 得 到 广泛 传 
播 , 也 帮助 广发 用 户 贡 献 自己 的 力量 协助 公安 部 门 惩 
4.5 实验 结果 

本 研究 基于 特定 属性 异 质 信 息 网 络 能 人 (GAT- 
NE ) 模型 进行 链接 预测 实验 ,为 了 评价 模型 的 性 能 ,本 
文选 择 相 同 的 实验 数据 ,分 别 构建 DeepWalk , 
Node2vec „Line GAE SDNE 等 链接 预测 模型 ,并 将 这 些 
模型 的 性 能 评估 结果 与 CATNE-I 模型 进行 比较 ,由 于 


* Intel(R) Xeon(R) E5 -2640 v4 x86_64,2. 4GHz,20 
核心 ,Nvidia Tesla V100 ,内 存 16G。 各 模型 的 性 能 评估 
结果 如 表 4 所 示 。 其 中 ,AUC 是 指 ROC 曲线 下 的 面 
FR, ROC 曲线 是 以 假 正 例 率 (FPR) 和 真正 例 率 (TPR ) 
作为 变量 而 做 出 的 曲线 ,其 中 FPR 为 横 坐 标 , TPR 为 
JEER; FL 是 模型 精确 率 和 召回 率 的 调和 平均 数 , 如 
公式 (8) 所 示 ;PR 曲线 是 以 精确 率 ( precision) 和 召回 
率 (recall) 作 为 变量 而 做 出 的 曲线 ,其 中 recall 为 横 坐 
标 ,precision 为 纵 坐 标 , 则 PR 值 是 指 PR wh Ae F ÉS E 
R; AUC F1 PR 数值 越 大 , 则 代表 模型 性 能 越 好 。 


precision * recall 


DeepWalk .Node2vec 等 模型 不 能 对 不 同 边 类 型 的 网 络 precivion + recall aw 
进行 处 理 ,因此 本 文 对 转发 .评论 .关注 关系 的 网 络 分 表 3 抽取 的 部 分 数据 集 
别 采 用 基线 模型 进行 预测 。 本 研究 先 抽取 部 分 数据 集 0 
进 每 实验 ,如 表 3 所 示 。 数 据 集中 正 负 样 本 的 比例 会 “i s Hi 
影响 预测 的 准确 率 ,一 般 将 原始 数据 集 划 分 为 训练 集 We ae oe 
(FO% ) ,测试 集 ( 约 20% ) 和 验证 集 ( 约 10% ) ,并 且 每 
多 熏 合 中 的 正 负 样 本 数量 应 大 致 相等 。 实 验 环境 为 2 
RA 模型 的 性 能 评估 结果 ( 部 分 数据 集 ) 
转发 指标 评论 指标 关注 指标 
模型 AUC F1 PR AUC F1 PR AUC F1 PR 
SVD 0.552 0.524 0.536 0.672 0. 625 0.618 0. 736 0.675 0. 724 
DeepWalk 0.562 0.547 0.543 0. 693 0. 664 0.618 0. 766 0. 680 0.782 
Node2vec 0.562 0. 562 0.542 0.675 0. 647 0.599 0. 736 0.652 0. 757 
Graph Factorization 0.559 0.550 0.550 0. 601 0. 583 0.574 0.719 0. 662 0. 733 
LINE 0. 660 0.599 0. 687 0. 631 0.587 0. 633 0.770 0. 693 0. 780 
GAE 0.566 0.587 0.552 0. 622 0. 606 0. 600 0. 604 0. 634 0.540 
SDNE 0. 704 0. 608 0. 680 0.760 0. 669 0.770 0. 737 0.678 0. 728 
GATNE-T 0.712 0. 646 0. 739 0.711 0.610 0.752 0. 638 0.599 0. 609 
GATNE-I 0. 683 0. 688 0.764 0. 732 0.675 0.783 0.618 0.594 0.578 


从 表 4 看 出 ,对 比 于 基线 模型 ,在 转发 .评论 关系 
的 数据 集 上 GANTE-T 模型 具有 较 高 的 准确 率 , 同 时 ， 
由 于 节点 的 特征 非常 丰富 ,因此 GATNE-I 的 效果 明显 
好 于 GATNE-T。 虽 然 在 关注 网 络 上 的 预测 效果 较 差 ， 
但 是 整体 来 看 ,GATNE-I(T) 模 型 效果 较 好 。 随 后 在 全 


数据 集 上 进行 实验 ,并 且 选 择 DeepWalk、Node2vec 作 
为 基线 模型 进行 对 比 ,得 到 实验 结果 如 表 5 所 示 , 设 置 
GATNE-I 模 型 的 词 向 量 维度 为 200, 随 机 游 走 序列 长 
度 为 10 ,每 个 节点 选择 20 个 随机 游 走 序列 ,窗口 大 小 
为 5, 负 样本 数 为 5。 


表 5 模型 的 性 能 评估 结果 ( 全 数据 集 ) 


转发 指标 评论 指标 关注 指标 
模型 
AUC F1 PR AUC F1 PR AUC F1 PR 
DeepWalk 0.456 0. 468 0. 486 0.456 0. 424 0. 594 0. 733 0. 668 0.756 
Node2 vec 0.528 0.520 0.551 0. 442 0. 404 0.589 0.744 0.677 0.768 
GATNE-T 0. 685 0.639 0. 662 0.716 0. 644 0.737 0. 603 0.574 0.571 
GATNE-I 0.737 0.651 0.672 0.799 0. 689 0.792 0. 569 0. 543 0.577 


上 述 实验 结果 中 ,CATNE-I 模型 在 评论 .转发 预测 
数据 集 上 的 AUC 分 别 达 到 0. 799 .0.734 ,同样 的 ,CAT- 


NE-I(T) 模 型 在 关注 数据 集 上 的 表现 较 差 ,但 是 整体 
来 看 ,CATNE-I(T) 模型 的 模型 效果 仍 优 于 DeepWalk、 
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Node2vec 模型 。DeepWalk Node2vec 模型 是 基于 同 质 
信息 网 络 , 而 GATNE-I(T) 模 型 能 对 异 质 信息 网 络 进 
行 处 理 , 并 且 能 有 效 处 理 大 规模 数据 ,更 加 符合 现实 志 
界 中 数据 规模 庞大 的 社交 网 络 。 


5 结论 


本 文 针 对 通缉 微 博 这 一 特定 领域 信息 传播 问题 

从 用 户 属性 特征 . 微 博 突 件 关键 字 特 征 . 微 博文 本 结构 
特征 ,时间 特征 等 方面 ,基于 微 博 和 用 户 视角 ,采用 xg- 
boost 算法 评估 特征 对 微 博 传播 预测 的 重要 性 ,包括 用 
户 的 转发 .评论 ,研究 发 现 微 博 案件 关键 字 特 征 不 管 是 
在 转发 行为 预测 还 是 评论 行为 中 的 重要 性 都 是 最 高 。 
随后 ,本 文 探讨 了 公安 用 户 和 媒体 用 户 的 转发 网 络 中 
用 户 的 基本 属性 ,发 现 公 安 用 户 发 布 的 通缉 微 博 的 伟 
播 全 较为 局 限 ,省 市 ( 直辖 市 ) 内 各 地 区 的 公安 徽 博之 
间 合 作 较 紧密 。 另 一 方面 ,本 文 构建 了 基于 转发 . 评 
沦 美 注 关 系 的 异 质 信息 网 络 , 并 且 根据 提取 的 用 户 和 
向 二 属性 ,提出 了 基于 特定 属性 的 异 质 网 络 戏 入 模 
预测 通缉 微 博 的 转发 .评论 以 及 用 户 之 间 的 关注 关系 。 
美 验 结果 表明 ,模型 在 转发 .评论 预测 中 准确 度 分 别 达 

0.734 和 0.799 ,高 于 其 他 基线 模型 ,有 助 于 公安 
IRIE FB" 网 络 通缉 "的 举措 ,更 好 地 通过 用 户 
个 位 化 推荐 来 促进 网 民 的 积极 参与 ,为 公安 机 关 最 大 
化 臣 利 用 社交 网 络 提供 现实 条 件 。 本 研究 的 不 足 之 处 
和 下:@ 林 文 将 多 级 转发 ,评论 数据 均 看 成 一 级 转发 、 
评 跟 , 未 来 可 以 更 深入 探索 多 级 转发 .评论 中 不 同 用 户 
之 阿 的 关系 ;@ 本 文 提出 的 预测 模型 是 基于 异 质 信息 
网 欧 , 但 现实 世界 中 的 信息 传播 过 程 是 动态 变化 的 , 没 
有 将 时 间 因 素 考虑 在 内 ;@ 在 对 不 同 主体 发 布 的 微 博 
中 传播 用 户 的 属性 进行 探讨 时 ,没有 考虑 到 不 同等 级 
的 通缉 案件 会 引发 省 际 间 不 同 的 传播 模式 ,未 来 可 进 
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一 步 展开 研究 。 
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= Abstract: | Purpose/significance | This study aimed to predict whether microblog users would retweet or com- 
Sent on the microblog entries containing wanted information. We also evaluated the important features that affected 
the spread of wanted microblog entries to help the public security departments improve their operation performance 
and enhance the communication and cooperation between the police and the public. | Method/process | Based on 
the characteristics of the wanted microblogging, we combined user features, time features and structure features, and 
extracted event features in microblog entries, such as location keywords, time keywords, the wanted level and so on. 
The Xgboost algorithm was used to calculate the importance of different features in the retweet and comment predic- 
tion. In combination with the features of transmission network and node attributes, we trained and evaluated a predic- 
tion model based on heterogeneous information network embedding. | Result/conclusion | The values of the AUC in 
retweeting and commenting data sets are 0.737 and 0.799 respectively. As the model integrated network structure 
characteristics and different nodes’ attributes, it was closer to the heterogeneous information network in reality and 
had higher accuracy than the traditional link prediction model. In addition, the result of features’ importance showed 
that the keyword features of the proposed event features had the highest importance among all the features that affect- 
ed the prediction of microblog entries retweeted and commented. 
Keywords; information dissemination public security microblog link prediction graph representation learn- 
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